With the growing global deployment of carbon capture and sequestration technology to combat climate change, monitoring and detection of potential CO2 leakage through existing or storage induced faults are critical to the safe and long-term viability of the technology. Recent work on time-lapse seismic monitoring of CO2 storage has shown promising results in its ability to monitor the growth of the CO2 plume from surface recorded seismic data. However, due to the low sensitivity of seismic imaging to CO2 concentration, additional developments are required to efficiently interpret the seismic images for leakage. In this work, we introduce a binary classification of time-lapse seismic images to delineate CO2 plumes (leakage) using state-of-the-art deep learning models. Additionally, we localize the leakage region of CO2 plumes by leveraging Class Activation Mapping methods.
translated by 谷歌翻译
Language models are widely deployed to provide automatic text completion services in user products. However, recent research has revealed that language models (especially large ones) bear considerable risk of memorizing private training data, which is then vulnerable to leakage and extraction by adversaries. In this study, we test the efficacy of a range of privacy-preserving techniques to mitigate unintended memorization of sensitive user text, while varying other factors such as model size and adversarial conditions. We test both "heuristic" mitigations (those without formal privacy guarantees) and Differentially Private training, which provides provable levels of privacy at the cost of some model performance. Our experiments show that (with the exception of L2 regularization), heuristic mitigations are largely ineffective in preventing memorization in our test suite, possibly because they make too strong of assumptions about the characteristics that define "sensitive" or "private" text. In contrast, Differential Privacy reliably prevents memorization in our experiments, despite its computational and model-performance costs.
translated by 谷歌翻译
Modern robotic systems are required to operate in challenging environments, which demand reliable localization under challenging conditions. LiDAR-based localization methods, such as the Iterative Closest Point (ICP) algorithm, can suffer in geometrically uninformative environments that are known to deteriorate registration performance and push optimization toward divergence along weakly constrained directions. To overcome this issue, this work proposes i) a robust multi-category (non-)localizability detection module, and ii) a localizability-aware constrained ICP optimization module and couples both in a unified manner. The proposed localizability detection is achieved by utilizing the correspondences between the scan and the map to analyze the alignment strength against the principal directions of the optimization as part of its multi-category LiDAR localizability analysis. In the second part, this localizability analysis is then tightly integrated into the scan-to-map point cloud registration to generate drift-free pose updates along well-constrained directions. The proposed method is thoroughly evaluated and compared to state-of-the-art methods in simulation and during real-world experiments, underlying the gain in performance and reliability in LiDAR-challenging scenarios. In all experiments, the proposed framework demonstrates accurate and generalizable localizability detection and robust pose estimation without environment-specific parameter tuning.
translated by 谷歌翻译
目的:用脑电图(脑电图)测量的稳态视觉诱发电势(SSVEP),在脑部计算机界面(BCI)拼写中产生不错的信息传输速率(ITR)。但是,文献中当前高性能的SSVEP BCI拼写器需要针对每个新用户进行系统适应的最初冗长而累人的用户特定培训,包括使用脑电图实验,算法培训和校准的数据收集(所有这些都是在实际使用之前系统)。这阻碍了BCI的广泛使用。为了确保实用性,我们提出了一种基于深神经网络(DNN)合​​奏的高度新颖的目标识别方法,该方法不需要任何特定于用户的培训。方法:我们从先前进行的脑电图实验的参与者中利用已经存在的文献数据集来训练全球目标标识符DNN,然后对每个参与者进行微调。我们将这种微调DNN的合奏转移到新的用户实例中,根据参与者与新用户的统计相似性确定k最具代表性的DNN,并通过集合预测的加权组合来预测目标角色。结果:在两个大规模基准和β数据集上,我们的方法可实现令人印象深刻的155.51位/分钟和114.64位/分钟ITR。代码可用于可重复性:https://github.com/osmanberke/ensemble-fnns结论:拟议的方法在[0.2-1.0]中的所有刺激持续时间上的所有最新替代方案都显着优于[0.2-1.0]秒。两个数据集。意义:我们的合奏-DNN方法有可能在日常生活中促进BCI拼写者的实际广泛部署,因为我们提供了最高的性能,同时无需任何特定于用户的培训即可立即使用。
translated by 谷歌翻译
最近,神经网络发生了重大发展。因此,神经网络经常在物理文献中使用。这项工作估计了使用神经网络从介子和巴里昂群众产生的异国情调的哈德子的质量。随后,使用最近提出的人工数据增强技术增加了数据数量。我们已经观察到,使用增强数据,神经网络的预测能力提高了。这项研究表明,数据增强技术在改善神经网络预测中起着至关重要的作用。此外,神经网络可以对异国情调的哈德子做出合理的预测,双重迷人和双重底层的重子。结果也与高斯过程和组成夸克模型相媲美。
translated by 谷歌翻译
聚类是无监督学习中无处不在的工具。大多数现有的自我监督表示方法通常基于视觉上的特征聚类样本。尽管这对于基于图像的自我审视非常有效,但它通常会失败,因为视频需要理解运动而不是专注于背景。将光流作为与RGB的互补信息可以减轻此问题。但是,我们观察到,两种观点的幼稚组合并不能带来有意义的收益。在本文中,我们提出了一种结合两种观点的原则方法。具体而言,我们提出了一种新颖的聚类策略,在该策略中,我们将每个视图的初始群集分配作为指导其他视图的最终群集分配。这个想法将对这两种视图强制执行类似的群集结构,并且形成的簇在语义上是抽象的,并且对来自每个单独视图的嘈杂输入。此外,我们提出了一种新颖的正则化策略来解决特征崩溃问题,这在基于聚类的自学学习方法中很常见。我们的广泛评估表明,我们学到的表示对下游任务的有效性,例如视频检索和动作识别。具体来说,我们在UCF上胜过7%,在HMDB上胜过4%,用于视频检索,而在UCF上的最高状态为5%,而HMDB则在HMDB上进行视频分类6%
translated by 谷歌翻译
基于相关的回声声音浮标收集的数据,这些浮标附带了热带海洋中的鱼聚集设备(DFAD),当前的研究应用机器学习方案来检查金枪鱼学校关联的时间趋势以漂移对象。使用二进制输出,将文献中通常使用的指标适应以下事实,即考虑到DFAD下的整个金枪鱼聚合。金枪鱼首次在25至43天之间进行了金枪鱼的中位时间,取决于海洋,最长的浸泡和殖民时间在太平洋中注册。金枪鱼学校的连续停留时间通常比连续缺勤时间(分别在5到7天和9天和11天之间)短,与以前的研究结果一致。使用回归输出,估计两个新型指标,即聚集时间和分解时间,以进一步了解聚集过程的对称性。在所有海洋中,金枪鱼聚合离开DFAD所需的时间并不比聚集形成所花费的时间大得多。讨论了这些结果在“生态陷阱”假设的背景下的价值,并提出了进一步的分析以丰富和利用该数据源。
translated by 谷歌翻译
随着大型预训练的语言模型(例如GPT-2和BERT)的广泛可用性,最近的趋势是微调一个预训练的模型,以在下游任务上实现最新的性能。一个自然的示例是“智能回复”应用程序,其中调整了预训练的模型以为给定的查询消息提供建议的答复。由于这些模型通常是使用敏感数据(例如电子邮件或聊天成绩单)调整的,因此了解和减轻模型泄漏其调整数据的风险很重要。我们研究了典型的智能回复管道中的潜在信息泄漏漏洞,并引入了一种新型的主动提取攻击,该攻击利用包含敏感数据的文本中的规范模式。我们通过实验表明,对手可以提取培训数据中存在的敏感用户信息。我们探讨了潜在的缓解策略,并从经验上证明了差异隐私如何成为这种模式提取攻击的有效防御机制。
translated by 谷歌翻译
大型预审慎的模型可以私下微调以实现非私有模型的性能。这些结果中的一个共同主题是令人惊讶的观察结果,即高维模型可以实现有利的隐私性权衡。这似乎与差异私有凸学习的模型尺寸依赖性相矛盾,并提出了以下研究问题:差异私人学习的性能何时不会随着模型大小的增加而降低?我们确定投影到子空间上的梯度的幅度是决定性能的关键因素。为了确切地为私人凸学习的特征,我们引入了一个条件,即我们将限制Lipschitz的连续性限制并得出了在其他条件下与维度无关的过多经验和人口风险的界限。我们从经验上表明,在大型语言模型的私人微调中,在本地最佳距离附近评估的梯度主要由一些主要组件控制。这种行为类似于我们在凸面设置中获得尺寸独立界限的条件。我们的理论和经验结果共同为大规模私人微调成功提供了可能的解释。
translated by 谷歌翻译
最近的工作证明了从生成语言模型中成功提取培训数据。但是,在文本分类模型中,这种提取是否可行,因为培训目标是预测类标签而不是下一字预测。这提出了一个有趣的挑战,并提出了关于文本分类设置中培训数据隐私的重要问题。因此,我们通过研究与学习任务无关的培训数据的意外记忆的问题来研究文本分类域中的潜在隐私泄漏。我们提出了一种算法,通过利用模型提供的类标签的可能性来提取部分文本的缺失令牌。我们通过将金丝雀插入训练集并试图在训练后提取令牌来测试算法的有效性。在我们的实验中,我们证明了在一定程度上可以成功提取。这也可以用作审计策略,以评估未经同意的任何未经授权使用个人数据的使用。
translated by 谷歌翻译